自从深网的成立以来,训练模型所需的计算资源一直在增加。大规模数据集中的培训神经网络已成为一项具有挑战性且耗时的任务。因此,需要减少数据集而不损害准确性。在本文中,我们介绍了一种早期方法,即通过均匀聚类来减少数据集大小的新颖方法。所提出的方法基于将数据集划分为均匀簇的想法,并选择对准确性产生显着贡献的图像。我们提出了两种变体:用于图像数据降低的几何均匀聚类(GHCIDR)和合并GHCIDR在基线算法 - 通过均匀聚类(RHC)降低(RHC),以实现更好的准确性和训练时间。 GHCIDR背后的直觉涉及通过簇权重和训练集的几何分布选择数据点。合并GHCIDR涉及使用完整的链接聚类的群集合并相同的标签。我们使用了三个深度学习模型 - 完全连接的网络(FCN),VGG1和VGG16。我们在四个数据集中进行了两个变体 - MNIST,CIFAR10,Fashion-Mnist和Tiny-Imagenet。与RHC相同百分比的合并GHCIDR在MNIST,Fashion-Mnist,CIFAR10和Tiny-Imagenet上分别增加了2.8%,8.9%,7.6%和3.5%。
translated by 谷歌翻译
在本文中,我们介绍了一种早期方法的新颖变化,称为均质聚类算法,用于降低数据集大小。本文提出的方法背后的直觉是将数据集划分为均匀簇,并选择一些对准确性产生重大贡献的图像。选定的图像是训练数据的正确子集,因此是可读的。我们在基线算法RHC上提出了四个变体。第一种方法背后的直觉是,边界点有助于簇的代表。它涉及选择群集质心的最远的k和一个最近的邻居。在以下两种方法(KONCW和CWKC)中,我们介绍了簇权重的概念。它们是基于这样一个事实,即较大的簇贡献比较小的群集的贡献更多。最终变化是GHCIDR,它根据数据分布的几何方面选择点。我们在两个深度学习模型 - 完全连接的网络(FCN)和VGG1上进行了实验。我们在三个数据集中的四个变体中进行了实验:MNIST,CIFAR10和Fashion-Mnist。我们发现,GHCIDR的最佳准确度分别为99.35%,81.10%和91.66%,培训数据降低了87.27%,32.34%和76.80%,分别为MNIST,CIFAR10和时尚。
translated by 谷歌翻译
This paper presents a corpus annotated for the task of direct-speech extraction in Croatian. The paper focuses on the annotation of the quotation, co-reference resolution, and sentiment annotation in SETimes news corpus in Croatian and on the analysis of its language-specific differences compared to English. From this, a list of the phenomena that require special attention when performing these annotations is derived. The generated corpus with quotation features annotations can be used for multiple tasks in the field of Natural Language Processing.
translated by 谷歌翻译
With the ever-growing popularity of the field of NLP, the demand for datasets in low resourced-languages follows suit. Following a previously established framework, in this paper, we present the UNER dataset, a multilingual and hierarchical parallel corpus annotated for named-entities. We describe in detail the developed procedure necessary to create this type of dataset in any language available on Wikipedia with DBpedia information. The three-step procedure extracts entities from Wikipedia articles, links them to DBpedia, and maps the DBpedia sets of classes to the UNER labels. This is followed by a post-processing procedure that significantly increases the number of identified entities in the final results. The paper concludes with a statistical and qualitative analysis of the resulting dataset.
translated by 谷歌翻译
This article presents the application of the Universal Named Entity framework to generate automatically annotated corpora. By using a workflow that extracts Wikipedia data and meta-data and DBpedia information, we generated an English dataset which is described and evaluated. Furthermore, we conducted a set of experiments to improve the annotations in terms of precision, recall, and F1-measure. The final dataset is available and the established workflow can be applied to any language with existing Wikipedia and DBpedia. As part of future research, we intend to continue improving the annotation process and extend it to other languages.
translated by 谷歌翻译
This paper presents a cross-lingual sentiment analysis of news articles using zero-shot and few-shot learning. The study aims to classify the Croatian news articles with positive, negative, and neutral sentiments using the Slovene dataset. The system is based on a trilingual BERT-based model trained in three languages: English, Slovene, Croatian. The paper analyses different setups using datasets in two languages and proposes a simple multi-task model to perform sentiment classification. The evaluation is performed using the few-shot and zero-shot scenarios in single-task and multi-task experiments for Croatian and Slovene.
translated by 谷歌翻译
在这项工作中,我们研究了生成图像模型的性能和评估如何受到其培训数据集的种族组成的影响。通过检查和控制各种培训数据集中的种族分布,我们能够观察不同培训分布对生成的图像质量和生成图像的种族分布的影响。我们的结果表明,生成的图像的种族组成成功地保留了培训数据。但是,我们观察到截断是一种用于在推断过程中生成更高质量图像的技术,加剧了数据中的种族失衡。最后,在检查图像质量与种族之间的关系时,我们发现给定种族的最高可感知的视觉质量图像来自该种族代表性很好的分布,并且注释者始终偏爱白人的生成图像,而不是黑人。
translated by 谷歌翻译
已经证明,基于光子微孔谐振器(MRR)硬件加速器可为处理深卷积神经网络(CNN)提供破坏性的加速和能源效率的改进。但是,以前基于MRR的CNN加速器无法为具有混合张量的CNN提供有效的适应性。此类CNN的一个例子是可分离的CNN。在这种不灵活的加速器上对CNN进行CNN的推断通常会导致低硬件利用率,从而降低了加速器的可实现性能和能源效率。在本文中,我们提出了一种在基于MRR的CNN加速器中引入可重构性的新方法,以使加速器硬件组件和使用硬件组件处理的加速器硬件组件和CNN张量之间的尺寸兼容性进行动态最大化。我们根据加速器中使用的硬件组件的布局和相对位置将基于最新的MRR的CNN加速器分为两个类别。然后,我们使用我们的方法在这两个类别中引入加速器中的可重构性,从而改善其并行性,有效映射不同尺寸的张量,速度和整体能源效率的灵活性。我们根据面积比例的前景(所有加速器的相等硬件区域)对可重构加速器进行了可重构加速器的评估。我们对四个现代CNN的推断的评估表明,与来自MRR基于MRR的基于MRR的加速器相比,我们设计的可重新配置CNN加速器可改善高达1.8倍,而FPS/W高达1.5倍。先前的工作。
translated by 谷歌翻译
机器学习模型表现出两个看似矛盾的现象:训练数据记忆和各种遗忘形式。在记忆中,模型过于适合特定的培训示例,并容易受到隐私攻击的影响。在忘记时,最终忘记了在培训初期出现的例子。在这项工作中,我们将这些现象联系起来。我们提出了一种技术,以衡量训练示例的细节在多大程度上``忘记'',从而不易受到他们最近未曾见过的示例的隐私攻击的影响。我们表明,尽管非凸性可以防止在最坏的情况下忘记发生,但标准图像和语音模型在经验上确实会随着时间的流逝而忘记示例。我们将非确定性识别为潜在的解释,表明经过确定性训练的模型不会忘记。我们的结果表明,当使用极大的数据集培训(例如用于预训练模型的示例)时,早期看到的例子可能会观察到隐私益处,而牺牲了后来看到的示例。
translated by 谷歌翻译
端到端(E2E)模型通常通过浅融合伴随语言模型(LMS),以提高其整体质量以及对稀有单词的认可。同时,几项先前的作品表明,LMS容易在训练数据中无意中记住稀有或独特的序列。在这项工作中,我们设计了一个框架,用于检测LM培训数据中随机文本序列的记忆(我们称为Canaries),当一个人只有Black-Box(Query)访问LM融合语音识别器,而不是直接访问到达LM融合语音识别器LM。在与变压器LM融合的生产级构象体RNN-T E2E模型中,我们表明可以从300m示例的LM训练数据中检测到单一疾病的金丝雀的记忆。我们还激发了保护隐私的动机,我们还表明,通过示例梯度倾斜的LM培训而没有损害整体质量,这种记忆会大大减少。
translated by 谷歌翻译